Сборка генома de novo

Подготовка чтений программой trimmomatic

Сначала отрезаем адаптеры.

 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240359.fastq adapters_removed.fastq ILLUMINACLIP:adapters.fasta:2:7:7
TrimmomaticSE: Started with arguments: -phred33 SRR4240359.fastq adapters_removed.fastq ILLUMINACLIP:adapters.fasta:2:7:7 
Реузльтат: Input Reads: 13557938 Surviving: 13502066 (99,59%) Dropped: 55872 (0,41%)

Размер файла со чтениями до: 1375Мб, после: 1369Мб.

Затем очистка чтений.

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 adapters_removed.fastq trimmed.fastq TRAILING:20 MINLEN:32
  
Результат: Input Reads: 13502066 Surviving: 12184080 (90,24%) Dropped: 1317986 (9,76%)

Размер файла со чтениями до: 1369Мб, после: 1223Мб.

Velveth

Команда: velveth velveth 31 -short -fastq trimmed.fastq

Программа принимает на вход очищенные от адаптеров и фильтрованные чтения и создает в текущей директории несколько файлов: Roadmap, Log, Sequences. Суть работы программы заключается в создании хэш таблиц с k-мерами.

Контиги

Команда: velvetg velveth

N50= 70607

Длина Покрытие
1 108447 42.009186
11 125674 44.550949
13 71403 39.411551

Анализ

ID Число гэпов Identity Query Cover Score
1 556/13014(4%) 74.96% 10% 5465
11 126/9631(1%) 82.85% 14% 8517
13 195/7059(2%) 80.22% 9% 5121

Для контига 1: одинаковое направление с хромосомой

картинка
картинка

Для контига 11: проходит через нулевую координату

картинка
картинка

Для контига 13: имеет обратное направление

картинка
картинка

Можно сказать, что в целом контиги занимают достаточно большую часть генома.